Proiectul Astra, Veo și Upgrade-ul Gemini de la Google: Avansuri în AI
Aceasta este răspunsul Google la OpenAI.
O inteligență artificială generală, o AI care poate fi utilizată cu adevărat zilnic, ar fi jenant să organizezi o conferință de presă dacă nu este așa acum.
În dimineața devreme a zilei de 15 mai, a început oficial conferința Google I/O, „Gala Festivalului de Primăvară al Lumii Tehnologice”. De câte ori a fost menționată inteligența artificială în cele 110 minute ale prezentării principale? Google a numărat:
Da, AI-ul este discutat în fiecare minut.
Competiția AI-ului generativ a atins recent un nou climax, iar conținutul acestei conferințe I/O se învârte în mod natural în jurul inteligenței artificiale.
„Acum un an pe această scenă, ne-am împărtășit pentru prima dată planurile pentru modelul multimodal nativ de mari dimensiuni, Gemini. A marcat noua generație de I/O”, a spus CEO-ul Google, Sundar Pichai. „Astăzi, sperăm ca toată lumea să beneficieze de tehnologia Gemini. Aceste caracteristici revoluționare vor pătrunde în căutare, imagini, instrumente de productivitate, sisteme Android și multe alte aspecte.”
În prezent, atât 1.5 Pro, cât și 1.5 Flash sunt disponibile pentru previzualizare publică și oferă o fereastră de context de 1 milion de tokeni în Google AI Studio și Vertex AI. Acum, 1.5 Pro oferă, de asemenea, o fereastră de context de 2 milioane de tokeni pentru dezvoltatorii care folosesc API-ul și clienții Google Cloud prin intermediul unei liste de așteptare.
În plus, Gemini Nano a fost extins de la input pur text la input de imagine. La sfârșitul acestui an, începând cu Pixel, Google va lansa Gemini Nano multimodal. Aceasta înseamnă că utilizatorii mobile nu pot procesa doar inputuri text, ci și înțelege mai multe informații contextuale, cum ar fi vizualuri, sunet și limbaj vorbit.
Familia Gemini își întâmpină un nou membru: Gemini 1.5 Flash
Noul 1.5 Flash a fost optimizat pentru viteză și eficiență.
Noua Generație de Model Mare Open Source Gemma 2
Astăzi, Google a lansat, de asemenea, o serie de actualizări pentru modelul open-source de mari dimensiuni Gemma – Gemma 2 este aici.
După cum a fost prezentat, Gemma 2 utilizează o nouă arhitectură menită să atingă performanțe și eficiență revoluționare, noile parametrii ai modelului open-source fiind de 27B.
Când vine vorba de videoclipuri lungi, Veo poate produce videoclipuri de 60 de secunde sau chiar mai lungi. Poate face acest lucru printr-un singur prompt sau prin furnizarea unei serii de prompturi care împreună spun o poveste. Acesta este esențial pentru aplicarea modelelor de generare video în producția de film și televiziune.
Veo se bazează pe munca Google în generarea de conținut vizual, inclusiv Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere și altele.